639 research outputs found

    Controlador Robótico obtenido a través de una metaheurística de población variable

    Get PDF
    Las metaheurísticas, por su capacidad de adaptación al entorno de información, son herramientas sumamente útiles para obtener controladores robóticos. En general, se trata de una tarea computacionalmente costosa lo que ha motivado el estudio de alternativas para reducir su tiempo de obtención. Este artículo propone una metaheurística de población variable que utiliza especiación para obtener un controlador robótico, basado en una red neuronal de arquitectura mínima, con capacidad para resolver el problema de evasión de obstáculos y alcance de objetivos. Esta solución es novedosa ya que en general se utilizan poblaciones de tamaño. A lo largo de este trabajo se discuten los operadores genéticos utilizados así como los distintos aspectos de implementación que fueron considerados para introducir esta variación poblacional. Las pruebas realizadas tanto en ambientes simulados como sobre el robot real han dado resultados satisfactorios.Presentado en XI Workshop Agentes y Sistemas Inteligentes (WASI)Red de Universidades con Carreras en Informática (RedUNCI

    Thesis Overview: Dynamic Gesture Recognition and its Application to Sign Language

    Get PDF
    The automatic recognition of human gestures is a complex multidisciplinary problem that has not yet been completely solved. Since the advent of digital video capture technologies, there have been attempts to recognize dynamic gestures for different purposes. In the recent years, new technologies such as depth sensors or highresolution cameras were incorporated as well as the high processing capacity of the current devices emerged, allowing the new technologies development capable of detecting different movements and acting in real time. Unlike the recognition of the spoken voice, which has been researched for more than forty years, the topic of this thesis is relatively new in the scientific area and it evolves rapidly as new devices appear as well as new computer vision algorithms

    Dynamic Gesture Recognition and its Application to Sign Language

    Get PDF
    The automatic recognition of human gestures is a complex multidisciplinary problem that has not yet been completely solved. Since the advent of digital video capture technologies, there have been attempts to recognize dynamic gestures for different purposes. In the recent years, new technologies such as depth sensors or highresolution cameras were incorporated as well as the high processing capacity of the current devices emerged, allowing the new technologies development capable of detecting different movements and acting in real time. Unlike the recognition of the spoken voice, which has been researched for more than forty years, the topic of this thesis is relatively new in the scientific area and it evolves rapidly as new devices appear as well as new computer vision algorithms.Tesis defendida el 23 de marzo de 2017 para obtener el título de Doctor en Ciencias Informáticas (UNLP).Es revisión de: http://sedici.unlp.edu.ar/handle/10915/59330Facultad de Informátic

    Reconocimiento de gestos dinámicos y su aplicación al lenguaje de señas

    Get PDF
    El reconocimiento automático de gestos humanos es un problema multidisciplinar complejo y no resuelto aún de forma completa. Desde la aparición de tecnologías de captura de video digital existen intentos de reconocer gestos dinámicos con diferentes fines. La incorporación de nuevas tecnologías como sensores de profundidad o cámaras de alta resolución, así como la mayor capacidad de procesamiento de los dispositivos actuales, permiten el desarrollo de nuevas tecnologías capaces de detectar diferentes movimientos y actuar en tiempo real. A diferencia del reconocimiento de la voz hablada, que lleva más de 40 años de investigación, esta temática es relativamente nueva en el ambiente científico, y evoluciona de forma acelerada a medida que aparecen nuevos dispositivos así como nuevos algoritmos de visión por computador. La captura y reconocimiento de gestos dinámicos permite que sean utilizados en diversas áreas de aplicación como por ejemplo monitoreo de pacientes médicos, control en un entorno de videojuego, navegación y manipulación de entornos virtuales, traducción de léxicos de la lengua de señas, entre otras aplicaciones de interés. Particularmente la lengua de señas puede entenderse como un problema particular del reconocimiento de gestos dinámicos, el cual es sumamente apreciado en los últimos tiempos por distintas instituciones, ya que permite una ayuda directa a personas hipoacúsicas. Para poder utilizar un sistema de reconocimiento automático de lengua de señas para traducir los gestos de un intérprete, es necesario afrontar una serie de diversas tareas. En primer lugar existen diferentes enfoques dependiendo el dispositivo de sensado a utilizar. Si bien existen dispositivos invasivos como guantes de datos, en esta Tesis se analizan sólo dispositivos no invasivos de dos tipos: las cámaras RGB convencionales, y las cámaras de profundidad (con particular interés en los nuevos dispositivos RGB-d). Una vez capturado el gesto se requiere de diversas etapas de pre-procesamiento para identificar regiones de interés como las manos y rostro del sujeto/intérprete, para luego identificar las diferentes trayectorias del gesto realizado. Además, particularmente para la lengua de señas existe una variabilidad enorme en las diferentes posturas o configuraciones que la mano puede tener, lo cual hace a esta disciplina una problemática particularmente compleja. Para afrontar esto es necesario una correcta generación de descriptores tanto estáticos como dinámicos. Este es uno de los ejes principales investigados en esta Tesis. Además, debido a que cada región presenta gramáticas de lenguaje específicas, se requiere la disposición de una base de datos de la Lengua de Señas Argentina (LSA), inexistente hasta el momento. En base a los motivos mencionados anteriormente, esta Tesis tiene como objetivo general desarrollar un proceso completo de interpretación y traducción de la Lengua de Señas Argentina a través de videos obtenidos con una cámara RGB. En primer lugar se realizó un estudio del estado del arte en el reconocimiento de gestos. Se investigaron técnicas inteligentes para el procesamiento de imágenes y video así como los diferentes tipos de descriptores existentes en la actualidad. Como trabajo preliminar se desarrolló una estrategia capaz de procesar acciones humanas capturadas con un dispositivo MS Kinect. La estrategia desarrollada implementa una red neuronal SOM probabilística (ProbSOM) con un descriptor específicamente diseñado para retener información temporal. Este trabajo permitió superar los resultados existentes hasta el momento para dos bases de datos reconocidas. En el campo de la lengua de señas se realizaron dos aportes principales. En primer lugar se desarrolló una base de datos específica para el reconocimiento de señas argentinas. Esto incluyó una base de datos de imágenes con 16 configuraciones de las más utilizadas en el lenguaje, junto con una base de datos de videos de alta resolución con 64 señas distintas, con un total de 3200 videos. Estas bases de datos se grabaron con 10 intérpretes diferentes y varias repeticiones, permitiendo así su uso con técnicas clásicas de aprendizaje automático. Además, en estas bases de datos los intérpretes utilizaron guantes de color, en forma de marcador. Esto se realizó con el fin de facilitar la tarea de segmentar las manos de las imágenes/videos y así poder avanzar con el resto de las etapas de clasificación. De este modo, se da la posibilidad a nuevos investigadores de evaluar otros algoritmos de reconocimiento sin la necesidad de preocuparse por esta etapa de segmentación. En segundo lugar, se diseñaron e implementaron dos métodos de clasificación de señas, los cuales fueron evaluados satisfactoriamente en las bases de datos antes mencionadas. El primer método está dedicado a la clasificación de configuraciones de manos (gestos estáticos). Aquí se utilizó un agrupamiento probabilístico para clasificar correctamente las 16 configuraciones posibles de la base de datos, logrando un reconocedor simple y potente. El segundo modelo de clasificación permitió la clasificación de señas segmentadas en videos. Este último consta de un sistema probabilístico basado en la información capturada de las dos manos, donde para cada una se evalúan tres componentes principales: la posición, la configuración y el movimiento de las manos. Esta discriminación permitió tener un sistema modular, con diferentes sub-clasificadores capaces de intercambiarse y evaluarse de modo independiente. Para lograr obtener descriptores adecuados para estos subsistemas, es necesario realizar un procesamiento que involucra la correcta segmentación y seguimiento de las manos del intérprete, clasificación de las distintas configuraciones y una correcta representación de la información del movimiento. Para evaluar los modelos desarrollados se realizaron diversas pruebas sobre las bases de datos desarrolladas. En primer lugar se realizaron pruebas de validación cruzada utilizando un porcentaje de las pruebas como entrenamiento y el resto para testeo. Adicionalmente se realizó también una evaluación de cuán robusto es el sistema al incorporar nuevos intérpretes, desconocidos hasta el momento. De este modo, 9 de los 10 individuos de la base de datos fueron utilizados como datos de entrada del sistema, evaluando con el individuo restante. Todos estos experimentos mostraron excelentes resultados, con una tasa de error menor al 5%. Por otro lado, para evaluar la eficacia del modelo implementado, se cambiaron algunos de los sub-clasificadores por técnicas más conocidas en la literatura como Modelos de Markov o Redes Neuronales FeedForward, mostrando solidez en las estrategias propuestas en esta Tesis.Doctor en Ciencias Informática

    Controlador robótico obtenido a través una metaheurística de población variable

    Get PDF
    La Robótica Evolutiva tiene por objetivo central la obtención de controladores basados en Redes Neuronales adaptadas por evolución. Dado que estos controladores deben ser capaces de adaptarse a cambios en el entorno, resulta más adecuado utilizar metaheurísticas poblacionales en lugar de técnicas basadas en gradiente. Sin embargo, la mayoría de las soluciones existentes utilizan metaheurísticas de población fija y presentan dos grandes problemas: son proclives a la pérdida de diversidad y resultan computacionalmente costosas especialmente si el espacio de búsqueda es muy amplio y se intenta hacer una exploración completa. Esta tesina propone una metaheurística de población variable que utiliza especiación para obtener un controlador robótico basado en una red neuronal de arquitectura mínima, con capacidad para resolver el problema de evasión de obstáculos y alcance de objetivos. Para reducir el tiempo de cálculo se analizaron distintos aspectos relacionados con el algoritmo evolutivo como así también la paralelización de la solución utilizando herramientas actuales de procesamiento paralelo.Facultad de Informátic

    SOM+PSO : A novel method to obtain classification rules

    Get PDF
    Currently, most processes have a volume of historical information that makes its manual processing difficult. Data mining, one of the most significant stages in the Knowledge Discovery in Databases (KDD) process, has a set of techniques capable of modeling and summarizing these historical data, making it easier to understand them and helping the decision making process in future situations. This article presents a new data mining adaptive technique called SOM+PSO that can build, from the available information, a reduced set of simple classification rules from which the most significant relations between the features recorded can be derived. These rules operate both on numeric and nominal attributes, and they are built by combining a variation of a population metaheuristic and a competitive neural network. The method proposed was compared with the PART method and measured over 19 databases (mostly from the UCI repository), and satisfactory results were obtained.Facultad de Informátic

    SOM+PSO : A novel method to obtain classification rules

    Get PDF
    Currently, most processes have a volume of historical information that makes its manual processing difficult. Data mining, one of the most significant stages in the Knowledge Discovery in Databases (KDD) process, has a set of techniques capable of modeling and summarizing these historical data, making it easier to understand them and helping the decision making process in future situations. This article presents a new data mining adaptive technique called SOM+PSO that can build, from the available information, a reduced set of simple classification rules from which the most significant relations between the features recorded can be derived. These rules operate both on numeric and nominal attributes, and they are built by combining a variation of a population metaheuristic and a competitive neural network. The method proposed was compared with the PART method and measured over 19 databases (mostly from the UCI repository), and satisfactory results were obtained.Facultad de Informátic

    Handshape recognition for Argentinian Sign Language using ProbSom

    Full text link
    Automatic sign language recognition is an important topic within the areas of human-computer interaction and machine learning. On the one hand, it poses a complex challenge that requires the intervention of various knowledge areas, such as video processing, image processing, intelligent systems and linguistics. On the other hand, robust recognition of sign language could assist in the translation process and the integration of hearing-impaired people. This paper offers two main contributions: first, the creation of a database of handshapes for the Argentinian Sign Language (LSA), which is a topic that has barely been discussed so far. Secondly, a technique for image processing, descriptor extraction and subsequent handshape classification using a supervised adaptation of self-organizing maps that is called ProbSom. This technique is compared to others in the state of the art, such as Support Vector Machines (SVM), Random Forests, and Neural Networks. The database that was built contains 800 images with 16 LSA handshapes, and is a first step towards building a comprehensive database of Argentinian signs. The ProbSom-based neural classifier, using the proposed descriptor, achieved an accuracy rate above 90%

    Distribution of Action Movements (DAM): A Descriptor for Human Action Recognition

    Full text link
    Human action recognition from skeletal data is an important and active area of research in which the state of the art has not yet achieved near-perfect accuracy on many well-known datasets. In this paper, we introduce the Distribution of Action Movements Descriptor, a novel action descriptor based on the distribution of the directions of the motions of the joints between frames, over the set of all possible motions in the dataset. The descriptor is computed as a normalized histogram over a set of representative directions of the joints, which are in turn obtained via clustering. While the descriptor is global in the sense that it represents the overall distribution of movement directions of an action, it is able to partially retain its temporal structure by applying a windowing scheme. The descriptor, together with a standard classifier, outperforms several state-of-the-art techniques on many well-known datasets

    Handshape recognition for Argentinian Sign Language using ProbSom

    Get PDF
    Automatic sign language recognition is an important topic within the areas of human-computer interaction and machine learning. On the one hand, it poses a complex challenge that requires the intervention of various knowledge areas, such as video processing, image processing, intelligent systems and linguistics. On the other hand, robust recognition of sign language could assist in the translation process and the integration of hearingimpaired people. This paper offers two main contributions: first, the creation of a database of handshapes for the Argentinian Sign Language (LSA), which is a topic that has barely been discussed so far. Secondly, a technique for image processing, descriptor extraction and subsequent handshape classification using a supervised adaptation of self-organizing maps that is called ProbSom. This technique is compared to others in the state of the art, such as Support Vector Machines (SVM), Random Forests, and Neural Networks. The database that was built contains 800 images with 16 LSA conjurations, and is a first step towards building a comprehensive database of Argentinian signs. The ProbSom-based neural classifier, using the proposed descriptor, achieved an accuracy rate above 90%.Facultad de Informátic
    corecore